PDF, Word, Excel, PowerPoint, এবং অন্যান্য ডকুমেন্ট থেকে টেক্সট রিড করা

Apache Tika দিয়ে Text Extraction - অ্যাপাচি টিকা (Apache Tika) - Java Technologies

322

Apache Tika একটি শক্তিশালী ওপেন সোর্স টুল যা বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা নিষ্কাশন করতে ব্যবহৃত হয়। এটি PDF, Word, Excel, PowerPoint, এবং অন্যান্য ডকুমেন্ট ফরম্যাট থেকে সহজে টেক্সট পড়তে পারে, যা পরে বিশ্লেষণ বা অন্যান্য প্রয়োজনে ব্যবহৃত হতে পারে।

এখানে Apache Tika ব্যবহার করে PDF, Word, Excel, PowerPoint এবং অন্যান্য ডকুমেন্ট ফরম্যাট থেকে টেক্সট রিড করার পদ্ধতি বিস্তারিতভাবে আলোচনা করা হয়েছে।


Apache Tika দিয়ে টেক্সট রিড করার প্রাথমিক ধারণা

Apache Tika সঠিকভাবে বিভিন্ন ফাইল ফরম্যাটের মধ্যে থাকা টেক্সট নিষ্কাশন করতে সাহায্য করে। Tika সরাসরি ডকুমেন্ট ফরম্যাটের ধরন সনাক্ত করে এবং সেগুলির মধ্যে থেকে টেক্সট বের করে।

MIME Types এবং File Parsers ব্যবহার করে Tika প্রতিটি ফাইলের ভিতরের কনটেন্ট সনাক্ত করে এবং টেক্সট এবং মেটাডেটা বের করে। Apache Tika অনেক ধরনের ডকুমেন্ট ফরম্যাট সাপোর্ট করে, যার মধ্যে PDF, Microsoft Word, Excel, PowerPoint, Text files, HTML, XML, OpenDocument ইত্যাদি অন্তর্ভুক্ত রয়েছে।

Step 1: Maven Dependency Setup

প্রথমে pom.xml ফাইলে Apache Tika লাইব্রেরির ডিপেনডেন্সি যোগ করতে হবে:

<dependencies>
    <!-- Apache Tika for parsing documents -->
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-core</artifactId>
        <version>2.3.0</version>
    </dependency>
    
    <!-- Apache Tika parsers for extracting content -->
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-parsers</artifactId>
        <version>2.3.0</version>
    </dependency>
</dependencies>

Step 2: Text Extraction from PDF

Apache Tika ব্যবহার করে PDF ফাইল থেকে টেক্সট রিড করার জন্য নিচের কোডটি ব্যবহার করা যেতে পারে:

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class TikaPDFExample {
    public static void main(String[] args) {
        try {
            // Create Tika instance
            Tika tika = new Tika();
            
            // Extract text from PDF
            String text = tika.parseToString(new File("document.pdf"));
            
            // Output extracted text
            System.out.println("Extracted Text from PDF: ");
            System.out.println(text);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Step 3: Text Extraction from Microsoft Word (DOCX)

Microsoft Word ডকুমেন্ট (যেমন .docx ফাইল) থেকে টেক্সট বের করার জন্য নিচের কোড ব্যবহার করা যেতে পারে:

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class TikaWordExample {
    public static void main(String[] args) {
        try {
            // Create Tika instance
            Tika tika = new Tika();
            
            // Extract text from Word Document
            String text = tika.parseToString(new File("document.docx"));
            
            // Output extracted text
            System.out.println("Extracted Text from Word Document: ");
            System.out.println(text);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Step 4: Text Extraction from Microsoft Excel (XLSX)

Microsoft Excel ফাইল (যেমন .xlsx) থেকে টেক্সট রিড করার জন্য নিচের কোড ব্যবহার করা যেতে পারে:

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class TikaExcelExample {
    public static void main(String[] args) {
        try {
            // Create Tika instance
            Tika tika = new Tika();
            
            // Extract text from Excel File
            String text = tika.parseToString(new File("document.xlsx"));
            
            // Output extracted text
            System.out.println("Extracted Text from Excel Document: ");
            System.out.println(text);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Step 5: Text Extraction from PowerPoint (PPTX)

PowerPoint ডকুমেন্ট (যেমন .pptx) থেকে টেক্সট রিড করার জন্য নিচের কোড ব্যবহার করা যেতে পারে:

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class TikaPowerPointExample {
    public static void main(String[] args) {
        try {
            // Create Tika instance
            Tika tika = new Tika();
            
            // Extract text from PowerPoint Document
            String text = tika.parseToString(new File("presentation.pptx"));
            
            // Output extracted text
            System.out.println("Extracted Text from PowerPoint Document: ");
            System.out.println(text);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Step 6: Text Extraction from Other Documents (HTML, XML, etc.)

Apache Tika অন্যান্য ফাইল ফরম্যাট যেমন HTML এবং XML থেকেও টেক্সট এক্সট্র্যাক্ট করতে সক্ষম।

HTML ফাইল থেকে টেক্সট নিষ্কাশন:

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class TikaHTMLExample {
    public static void main(String[] args) {
        try {
            // Create Tika instance
            Tika tika = new Tika();
            
            // Extract text from HTML
            String text = tika.parseToString(new File("document.html"));
            
            // Output extracted text
            System.out.println("Extracted Text from HTML Document: ");
            System.out.println(text);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

XML ফাইল থেকে টেক্সট নিষ্কাশন:

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class TikaXMLExample {
    public static void main(String[] args) {
        try {
            // Create Tika instance
            Tika tika = new Tika();
            
            // Extract text from XML
            String text = tika.parseToString(new File("document.xml"));
            
            // Output extracted text
            System.out.println("Extracted Text from XML Document: ");
            System.out.println(text);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Conclusion

Apache Tika একটি অত্যন্ত শক্তিশালী টুল যা বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা নিষ্কাশন করতে ব্যবহৃত হয়। এটি PDF, Word, Excel, PowerPoint, HTML, XML, এবং অন্যান্য ডকুমেন্ট ফরম্যাট থেকে সহজে টেক্সট এক্সট্র্যাক্ট করতে সক্ষম।

Tika এর মাধ্যমে ডেটা নিষ্কাশন খুবই সহজ এবং এটি ওয়েব সার্ভিস, ডেটা বিশ্লেষণ, কনটেন্ট ম্যানেজমেন্ট সিস্টেম এবং অন্যান্য অনেক সিস্টেমে ব্যবহৃত হয়। Tika-র মাধ্যমে যেকোনো ফাইল ফরম্যাট থেকে text extraction এবং metadata extraction করা যায়, যা পরবর্তী বিশ্লেষণ বা প্রক্রিয়াকরণের জন্য কাজে আসে।

Content added By
Promotion

Are you sure to start over?

Loading...